SPADER: Recompensas de Exploración con Diversidad para QA Multi-Respuesta SPADER utiliza aprendizaje por refuerzo con recompensas de exploración diversa para mejorar el recuerdo y F1 en QA multi-respuesta. 2026-06-02 · 2 min